Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
translated by 谷歌翻译
常规作品通常采用两阶段模型,其中生成器选择最重要的部分,然后是根据所选零件进行预测的预测因子。但是,这样的两相模型可能会引起变性问题,其中预测变量过度适合尚未训练的发电机生成的噪声,然后导致发电机收敛到倾向于选择无意义的碎片的亚最佳模型。为了应对这一挑战,我们提出了折叠的合理化(FR),将理由模型的两个阶段折叠成一个文本语义提取的角度。FR的关键思想是在发电机和预测器之间采用统一的编码器,基于FR可以通过访问传统两相模型中发电机阻止的有价值的信息来促进更好的预测指标,从而带来更好的生成器。从经验上讲,我们表明,与最先进的方法相比,FR将F1得分提高了10.3%。
translated by 谷歌翻译
我们提出了Patron,这是一种新方法,它使用基于及时的不确定性估计,用于在冷启动场景下进行预训练的语言模型进行微调的数据选择,即,没有初始标记的数据可用。在顾客中,我们设计(1)一种基于迅速的不确定性传播方法来估计数据点的重要性和(2)分区 - 然后 - 剥离(PTR)策略,以促进对注释的样品多样性。六个文本分类数据集的实验表明,赞助人的表现优于最强的冷启动数据选择基准,高达6.9%。此外,仅具有128个标签,顾客分别基于香草微调和及时的学习,获得了91.0%和92.1%的全面监督性能。我们的赞助人实施可在\ url {https://github.com/yueyu1030/patron}上获得。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
在单个全景图像对3D房间布局的估计中,全局线框可以通过全局线框进行紧密描述。基于此观察,我们提出了一种替代方法,通过对可学习的霍夫变换块中的远程几何模式进行建模,以估算3D空间中的壁。我们将图像特征从库emap瓷砖转换为曼哈顿世界的霍夫空间,并将该功能直接映射到几何输出。卷积层不仅学习了局部梯度式的线特征,而且还利用全局信息成功预测具有简单网络结构的遮挡墙。与以前的大多数工作不同,预测是在每个Cubemap瓷砖上单独执行的,然后组装以获取布局估计。实验结果表明,我们在预测准确性和性能方面获得了可比的结果。代码可在https://github.com/starrah/dmh-net上找到。
translated by 谷歌翻译
在恢复低分辨率灰度图像的实际应用中,我们通常需要为目标设备运行三个单独的图像着色,超分辨率和Dows采样操作。但是,该管道对于独立进程是冗余的并且低效,并且可以共享一些内部特征。因此,我们提出了一种有效的范例来执行{s} {s} {c} olorization和{s} Uper分辨率(SCS),并提出了端到端的SCSNet来实现这一目标。该方法由两部分组成:用于学习颜色信息的彩色分支,用于采用所提出的即插即用\ EMPH {金字塔阀跨关注}(PVCATTN)模块来聚合源和参考图像之间的特征映射;和超分辨率分支集成颜色和纹理信息以预测使用设计的\ emph {连续像素映射}(CPM)模块的目标图像来预测连续放大率的高分辨率图像。此外,我们的SCSNet支持对实际应用更灵活的自动和参照模式。丰富的实验证明了我们通过最先进的方法生成真实图像的方法的优越性,例如,平均降低了1.8 $ \ Depararrow $和5.1 $ \ Downarrow $相比,与自动和参照模式的最佳分数相比,分别在拥有更少的参数(超过$ \ \倍$ 2 $ \ dovearrow $)和更快的运行速度(超过$ \ times $ 3 $ \ Uprarow $)。
translated by 谷歌翻译
尽管在许多自然语言处理(NLP)任务中进行了预先训练的语言模型(LMS),但它们需要过多标记的数据来进行微调以实现令人满意的性能。为了提高标签效率,研究人员采取了活跃的学习(AL),而大多数事先工作则忽略未标记数据的潜力。要释放未标记数据的强大功能以获得更好的标签效率和模型性能,我们开发ATM,一个新的框架,它利用自我训练来利用未标记的数据,并且对于特定的AL算法不可知,用作改善现有的插件模块Al方法。具体地,具有高不确定性的未标记数据暴露于Oracle以进行注释,而具有低不确定性的人则可用于自培训。为了缓解自我训练中的标签噪声传播问题,我们设计一个简单且有效的基于动量的内存库,可以动态地从所有轮次汇总模型预测。通过广泛的实验,我们证明了ATM优于最强大的积极学习和自我训练基线,平均将标签效率提高51.9%。
translated by 谷歌翻译
我们将简要介绍本文Trecvid2021中WHU-nercms的实验方法和结果。今年,我们参加了实例搜索的自动和交互式任务(INS)。对于自动任务,检索目标分为两个部分,人检索和动作检索。我们采用了两阶段方法,包括对人检索的面部检测和面部识别以及由三种基于框架的人类对象相互作用检测方法和两种基于视频的一般动作检测方法组成的两种动作检测方法。在那之后,人的检索结果和动作检索结果被融合以初始化结果排名列表。此外,我们尝试使用互补方法进一步提高搜索性能。对于交互式任务,我们在融合结果上测试了两种不同的交互策略。我们分别为自动和交互式任务提交4次运行。每次运行的引入显示在表1中。官方评估表明,所提出的策略在自动和交互式轨道中排名第一。
translated by 谷歌翻译
在线相关性反馈(RF)在实例搜索(INS)任务中被广泛使用,以进一步完善排名结果,但相互作用效率通常很低。主动学习(AL)技术通过选择有价值的反馈候选者来解决此问题。但是,主流AL方法需要一个初始标记的设置以进行冷启动,并且通常在计算上要解决。因此,他们无法完全满足交互式INS任务中在线RF的要求。为了解决此问题,我们提出了一种具有信心的主动反馈方法(CAAF),该方法专门为在线RF设计,以交互式INS任务。受到自定进度学习的显式难度建模方案的启发,CAAF利用成对的歧管排名损失来评估每个未标记样本的排名置信度。排名置信不仅通过指示有价值的反馈候选者,而且通过调节多种多样排名中的扩散权重来提高相互作用效率。此外,我们设计了两种加速策略,即近似优化方案和TOP-K搜索方案,以降低CAAF的计算复杂性。对图像INS任务和视频INS任务进行了广泛的实验,以搜索建筑物,景观,人员和人类行为都证明了该方法的有效性。值得注意的是,在现实世界中,NIST Trecvid 2021的大规模视频INS任务中,CAAF使用的反馈样本减少了25%,以实现几乎等同于Champion解决方案的性能。此外,有了相同数量的反馈样本,CAAF的地图为51.9%,大大超过了5.9%的冠军解决方案。
translated by 谷歌翻译
Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.
translated by 谷歌翻译